---
sidebar_position: 1
---
# 文档转换器

前往[集成](/docs/integrations/document_transformers/)，查看内置文档转换器与第三方工具的文档。

一旦加载了文档，您通常会希望对其进行转换，以更好地适应您的应用程序。最简单的例子是您可能希望将长文档拆分为更小的块，以适应您模型的上下文窗口。LangChain提供了许多内置的文档转换器，使得拆分、合并、过滤和其他文档操作变得容易。

## 文本拆分器

当您想要处理大块文本时，有必要将文本拆分为块。虽然听起来很简单，但这里存在许多潜在的复杂性。理想情况下，您希望将语义相关的文本片段保持在一起。"语义相关"的含义可能取决于文本的类型。本笔记本演示了几种做法。

在高层次上，文本拆分器的工作方式如下:

1. 将文本拆分为小的、语义上有意义的块（通常是句子）。
2. 将这些小块组合成较大的块，直到达到某个大小（由某个函数测量）。
3. 一旦达到该大小，将该块作为自己的文本片段，然后开始创建一个具有一定重叠的新文本块（以保持块之间的上下文）。

这意味着有两个不同的轴可以定制您的文本拆分器:

1. 文本如何拆分
2. 块大小如何测量

### 开始使用文本拆分器

import GetStarted from "@snippets/modules/data_connection/document_transformers/get_started.mdx"

<GetStarted/>
